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摘 要 : [目的 /意义 」 基于 网 络 社 交 平台 中 社 群 话题 及 用 户 兴 趣 挖 气 而 生成 的 社 群 标签 ,能 够 提高 社 群 定义 的 及 时 性 与 


准确 性 ,解决 用 户 信 息 获取 、 网 络 社 群 选择 的 困难 。 


[方法 /过 程 ] 通过 对 网 络 社 群 的 深入 分 析 , 发 现 社 群 特征 可 


根据 社 群 话题 及 用 户 兴 趣 予 以 表征 。 首 先 ,利用 主题 提取 BTM 模型 对 网 络 社 群 话题 进行 主题 模型 训练 ,从 而 得 


到 网 络 社 群 话题 预 标签 


;其 次 ,根据 社 群 成 员 兴 趣 标签 网 络 中 不 同类 型 的 重要 节点 指标 ,利用 TOPSIS 多 指标 综合 


评价 方法 挖 据 成 员 整 体 兴趣 ， 综合 两 者 结果 生成 社 群 标签 并 进行 优化 , 且 以 


“ 豆 闪 小 组 ”为 例 进 行 实证 。 [ 结 
趣 及 近期 关注 点 , 社 群 整体 的 标签 
ij: 社 群 标签 ”标签 生成 ”BTM TOPSIS 
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结论 ] 基于 社 群 话题 及 成 员 兴 趣 的 社 群 标签 
MH 于 网 络 用 户 兴趣 群体 的 选择 。 


生成 模型 能 够 准确 地 挖掘 主要 兴 


全 . 合 作 的 本 能 不 断 显现 ') ,各 类 网 络 社交 平台 逐步 
VEDO Uc 发 展 ,如 豆瓣 网 、 微 博 、 微 信 等 。 网 络 用 户 
根据 个 人 需要 或 兴 《 趣 加 入 不 同 的 网 络 社 群 与 社 群 内 其 
乳脂 户 交流 、 分 享 ,网 络 社 群 已 经 是 互联 网 用 户 的 最 大 
E 但 不 同 用户 加 入 网 络 社 群 的 目的 不 同 , 兴 
趣 三 也 不 同 , 在 面 对 纷 繁复 杂 的 网 络 社 群 时 ,用 户 通 党 
不 全 道 某 一 社 群 所 关注 的 重点 ,通常 不 知 是 否 应 该 加 
入 ,是 否 符合 自身 需求 与 兴趣 ,只 能 根据 片面 的 相关 信 
息 有 选择 性 的 加 入 大 量 相关 网 络 社 群 ,在 经 过 一 段 时 
间 的 了 解 后 再 进行 重点 选择 ,这 造成 了 用 户 的 信息 获 
取 困难 .效率 低下 等 问题 。 同 时 ,网 络 社 群 的 关注 点 及 
兴趣 也 会 随 着 外 部 环境 的 变化 而 改变 。 虽 然 搜 索引 擎 
可 以 根据 网 络 社 群 的 内 容 进 行 检索 ,但 单一 的 内 容 不 
能 全 面 的 展现 网 络 社 群 的 整体 特征 ,也 不 能 发 现 网 络 
社 群 的 兴趣 变化 。 因 此 ,如 何 帮助 用 户 准确 了 解 网 络 
社 群 的 兴趣 并 及 时 展现 网 络 社 群 关注 点 的 变化 ,逐渐 
受到 了 学 界 和 产业 界 的 关注 。 


S 


MR 


当前 ,国内 外 学 者 针对 网 络 社 群 主要 从 概念 ,用户 
行为 、 信 息 传播 与 知识 共享 3 个 方面 进行 研究 。 在 网 
络 社 群 概念 方面 ,H.Rheibgold 第 一 次 提出 网 络 社 群 
的 概念 ,认为 网 络 社 群 是 较 多 网 络 用 户 共同 参与 某 一 
话题 的 讨论 并 形成 一 定 的 凝集 关系 ” 。 其 后 陆续 有 学 
者 进行 研究 ,G. Siemens 认为 具有 共同 兴趣 的 网 络 用 
户 进 行 持续 的 互动 和 分 享 即 为 网 络 社 群 ” SN. D. B. 
Navarro 又 提出 一 个 自发 性 社交 网 络 (Spontaneous So- 
cial Network , SSN) 的 概念 ,通过 对 网 络 社 群 中 的 社 群 
意识 .归属 感 , 社 会 有 用 性 、 成 员 上 忠诚 度 和 社 群 的 短暂 
性 进行 评估 ,发 现 该 类 网 络 社 群 拥 有 较 好 的 社交 感知 
虚拟 环境 "。 在 社 群 用 户 行为 方面 ,T，Zhou 利用 社会 
感知 理论 来 确定 影响 用 户 持续 性 使 用 知识 社 群 的 因 
UMOR MK MORARI NND 知识 质量 的 环 
境 因 素 显著 影响 用 户 的 持续 意图 ,进而 影响 持续 使 用 
行为 * ; 刘 仙 分 析 研 究 了 网 络 社 群 中 的 “小 世界 网 络 
关系 ,发 现 信息 传播 与 点 的 人 度 和 出 度数 有 关 “ 。 邓 
卫 华 发 现 信息 传播 活动 中 接收 再 传播 和 发 布 是 最 为 
常见 的 3 种 活动 ,个 体 社 群 用 户 的 传播 行为 可 分 为 接 
受 型 .扩散 型 和 创造 型 3 个 层次 , 现 以 扩散 型 为 主 ” 
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作者 简介 : 蒋 武 轩 (ORCID :0000 -0001 -9621 -4318 ) ,博士 研究 生 ,E-mail:jiangchair@mails. cenu. edu. cn; 易 明 (ORCID:0000 -0002 -4864 一 
6025) ,教授 ,博士 生 导 师 ; 熊 回 香 (ORCID :0000 -0001 -9956 -3396 ) ,教授 ,博士 生 导师 ; 童 兆 莉 (ORCID :0000 -0003 - 1621 - 4356) ,博士 研 


收 稿 日 期 :2020 -12-09 修 回 日 期 :2021 -03 -18 本 文 起 止 页 码 :79 -89 本 文责 任 编辑 : 徐 健 


79 


AELE xt 


$865 35 58 10 Hg. 2021 年 5 月 


ChinaXiv& ER 


在 社 群 信息 传播 和 知识 共享 方面 ,C. C. Liao 对 网 络 
社 群 知识 共享 进行 综合 分 析 , 认 为 使 用 动机 ,享乐 动 
机 、 自 我 效能 和 共享 文化 能 够 激发 用 户 对 知识 共享 的 
AEC. Chen 以 价值 创造 理论 为 切入 点 ,认为 知识 
共享 有 助 于 提高 用 户 的 共同 创造 价值 ,这 些 价值 包括 
用 户 学 习 价值 .社会 综合 价值 和 享乐 价值 , 且 后 续 会 影 
响 用 户 未 来 再 参与 的 意愿 " 。 同 时 , 近 几 年 有 学 者 逐 
渐 发 现 社 群 标签 对 网 络 社 群 的 重要 性 ,了 Xie 等 提出 
利用 多 种 关系 提升 社交 平台 的 标签 使 用 ,结合 资源 的 
内 容 和 标签 对 用 户 社 群 进行 聚 类 , 发现 潜 在 社 群 " ; 
李 文 根 认为 社区 问答 的 内 容 主要 以 短文 本 为 主 ,传统 
的 文本 处 理 方法 对 其 并 不 适用 ,因此 借助 Wikipedia 
(维基 百科 ) 作为 外 部 知识 库 构 建 图 模型 的 标签 生成 
方法 ; 蒋 武 轩 利 用 网 络 社 群 话题 及 成 员 兴趣 标签 构 
建生 群 标签 动态 生成 模型 ,使 用 社 群 动态 标签 表征 社 
本 叱 要 特征 。 综 上 所 述 ,国内 外 对 于 网 络 社 和 群 标签 
4 狠 究 较 少 , 且 主 要 是 针对 用 户 进行 潜在 社 群 推荐 方 
面 Si 对 社 群 整体 标签 研究 方面 还 处 于 初始 阶段 。 

< 二 本 文 在 当前 研究 及 前 期 网 络 社交 平台 中 社 群 标签 
3 
型 .复杂 网 络 , 管 理 决策 相关 方法 技术 相 结 合 ， 


r=- 
| 户 昵称 | 


话题 标题 


话题 内 容 


话题 时 间 


构建 网 络 社 群 标签 生成 模型 。 通 过 对 网 络 社 群 的 分 析 
发 现 , 网 络 社 群 标签 可 以 从 社 群 话题 及 社 群 用 户 近 期 
兴趣 两 个 方面 来 挖掘 。 因 此 ,本 文 提出 从 社 群 话题 及 
用 户 近 期 兴趣 标签 对 社 群 标签 进行 动态 生成 。 首 先 通 
过 BTM( Biterm Topic Model ) 模型 提取 网 络 社 群 的 动态 
话题 进行 主题 模型 训练 ,从 而 得 到 网 络 社 群 话题 预 标 
签 ; 其 次 根据 网 络 社 群 活跃 用 户 兴趣 标签 网 络 中 不 同 
类 型 的 重要 节点 指标 ,利用 TOPSIS 多 指标 综合 评价 方 
法 挖掘 成 员 整 体 兴趣 ,从 而 得 到 网 络 社 群 成 员 兴 趣 预 
标签 ;最 后 在 两 者 基础 上 ,根据 不 同 领域 不 同 网 络 社交 
平台 对 最 终 动态 标签 进行 合成 。 


2 _ 社 群 标签 生成 模型 


网 络 社 群 的 特征 可 以 从 两 个 方面 进行 挖掘 :一 是 
社 群 的 讨论 话题 , 社 群 成 员 在 社 群 中 通过 各 种 方式 针 
对 某 些 问题 进行 讨论 与 交流 ,代表 着 社 群 主要 的 关注 
点 ;二 是 社 群 活跃 用 户 的 近期 兴趣 , 社 群 活跃 用 户 是 社 
群 成 员 的 主体 ,其 近期 兴趣 能 够 较 好 地 表征 社 群 近期 
整体 的 相关 兴趣 。 因 此 ,本 研究 整合 社 群 近期 话题 与 
活跃 用 户 近 期 兴趣 ,构建 社 群 标签 生成 模型 ,如 图 1 所 
Z7: 


BTM 主题 模型 构建 
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图 1 社 群 标签 生成 模型 


该 模型 包括 两 个 子 模 型 , 社 群 话题 标签 动态 子 模 
型 与 社 群 成 员 兴 趣 动态 标签 子 模 型 。 该 模型 将 自动 从 
社 群 中 收集 近期 社 群 成 员 发 表 的 讨论 话题 及 参与 话题 
成 员 近 期 观看 资源 及 相关 资源 标签 。 首 先 , 在 依据 子 
模型 进行 数据 预 处 理 的 基础 上 ,对 社 群 话题 数据 经 过 
BTM 主题 模型 训练 后 提取 相应 阅 值 的 主题 语词 作为 


话题 预 标签 ;其 次 ,运用 社会 网 络 的 思想 对 社 群 成 员 近 
期 兴趣 数据 构建 兴趣 标签 网 络 , 采 用 社会 网 络 中 重要 
节点 的 4 个 经 典 度量 指标 对 兴趣 标签 网 络 进行 度量 ， 

再 利用 多 指标 评价 方法 TOPSIS 将 4 个 指标 进行 综合 
评价 ,提取 成 员 兴 趣 预 标签 ;最 后 ,将 两 个 子 模型 的 预 
标签 进行 综合 处 理 , 确 定 最 终 社 群 标签 。 同 时 ,该 模型 


80 


ChinaXiv 合 作 期 刊 


Br. HR, 能 回 香 , 等 . 网 络 社 交 平台 中 社 群 标签 生成 研究 [J]. 图 书 情报 工作 ,2021 ,65(10) :79 - 89. 


在 一 段 周期 内 不 断 更 新 话题 与 成 员 兴 趣 信息 ,动态 更 
改 社 群 标签 ,最 大 程度 表征 社 群 特点 及 近期 关注 情况 ， 
及 时 ,准确 地 表征 社 群 特征 ,方便 用 户 清楚 地 了 解 不 同 
社 群 特点 。 
2.1 社 群 话题 标签 子 模型 

社 群 话题 是 用 户 根 据 自身 需要 发 表 的 关于 本 社 
群 主题 的 内 容 ,通过 对 其 进行 主题 提取 能 够 表征 社 
群 的 主题 。 针 对 社 群 话题 分 析 数 据 较 少 的 情况 ,本 
研究 主要 采用 短文 本 主题 模型 BTM 对 近期 话题 标题 
及 其 内 容 进 行 主题 提取 。BTM ( Biterm Topic Model) 
Eh X. Yan 教授 等 在 2013 年 5 H IW3C2 会 议 上 提 
出 的 专用 于 短文 本 的 主题 挖掘 模型 ,该 模型 通过 词 


共 现 的 模式 来 加 强 主 题 模 型 的 学 习 , 并 利用 整个 语 
FE 的 丰富 信息 抽样 主题 ,以 推断 整个 语料库 全 局 
的 宝 题 分 布 ,能 够 有 效 解决 文档 级 别 的 数据 稀 玻 性 


pe 
WAR, PAESE BON — RM ROGER ERE YE PERI 
[ep 


孝 队 处 理 的 标签 进行 分 词 。 该 系统 针对 中 文 的 分 词 结 
时 彰 确 性 较 高 ,并 具有 自 定义 词典 的 功能 ,能 够 根据 分 
请 售 要 添加 新 词 ,以 提高 分 词 的 准确 性 ,如 某 些 资源 的 
名 称 涉及 的 人 名 等 , 若 将 其 拆 分 将 对 后 续 提取 主题 千 
成 乡 扰 ,因此 将 所 有 涉及 到 的 资源 名 及 人 名 等 添加 到 
自 定义 字 生 中 ,使 其 不 再 进一步 拆 分 ,以 提高 话题 分 记 
的 准确 性 。 而 在 语义 映射 方面 ,由 于 经 过 前 期 处 理 后 
诉 东 语词 存在 语义 相似 的 情况 或 文体 不 同 的 情况 , 通 
过 计算 语词 间 的 语义 相似 度 对 其 进行 归 一 化 处 理 , 提 
高 其 后 续 分 析 的 准确 性 。 

在 数据 预 处 理 的 基础 上 ,根据 BTM 主题 模型 对 话 
题 数据 进行 处 理 。 首 先 ,将 话题 数据 作为 社 群 文档 集 
合 W, 并 将 每 个 时 间 段 的 社 群 话题 数据 作为 一 个 子 文 
E w, ,i 表示 不 同 子 文档 集 ,其 中 每 一 个 文档 都 是 一 
个 话题 。 其 次 ,对 分 词 进行 编码 ,并 将 每 篇 文档 的 分 词 
结果 用 编码 进行 表示 。 此 后 ,对 社 群 文档 集合 W 进行 
BTM 模型 训练 ,构建 社 群 话题 主题 模型 ,并 分 别 将 每 
一 子 文档 集 作为 新 文档 进行 主题 提取 。 其 模型 语词 概 
率 的 计算 方法 为 : 

P(Bla,8) = I5,/J Xi 0, Pru, Pru, dedo 

公式 (1) 

之 后 ,通过 主题 模型 困惑 度 确定 主题 数 ,困惑 度 计 

AWAR MRE, 


Perplexity( M) = 

"Y YQPOA) B DIE 公式 (2) 

公式 (2) 中 ,K 表示 主题 数 ,P(Z) 代 表 主 题 K 的 
概率 ,N 表示 主题 K 的 主题 词 数 ,P(W,12x) 表 示 主 题 
K 下 第 i 个 主题 词 的 概率 ,N 代表 该 文档 集中 的 所 有 语 
词 数 。 同 时 ,因为 公式 针对 每 个 词 都 进行 了 计算 , 词 频 
因素 包含 在 其 中 , 故 公式 中 并 未 单独 设 定 词 频 变 量 。 
在 确定 主题 数 K 后 ,经 过 1 000 次 以 上 的 迭代 即 可 得 
到 每 一 个 子 文档 集 下 的 主题 - 语词 概率 分 布 。 最 后 ， 
根据 主题 语词 概率 选取 TOP10 作为 社 群 话题 预 标签 。 
2.2. 社 群 活跃 成 员 兴 趣 标签 子 模型 

同一 社 群 成 员 的 主要 兴趣 是 相似 的 ,因此 活跃 社 
群 成 员 的 近期 兴趣 会 存在 相对 较 多 的 部 分 重合 ,通过 
不 同 用 户 兴 趣 间 的 关联 即 能 够 构建 出 社 群 成 员 的 兴趣 
网 络 。 该 网 络 中 将 会 存在 一 些 能 够 表征 多 数 用 户 共同 
兴趣 的 节点 ,这 些 节 点 具有 较 多 的 连接 ;也 会 存在 一 些 
只 有 较 少 用 户 感 兴趣 的 节点 , 即 节点 的 连接 较 少 ,一 般 
而 言 这 两 种 节点 数量 符合 齐 普 夫 (Zipf) 定律 。 由 于 节 
点 分 布 呈 现 出 很 大 的 异 质 性 ,并 且 节 点 的 度 也 服从 寡 
率 分 布 , 这 样 的 网 络 符合 社会 网 络 的 特征 。 该 子 模型 
将 根据 社 群 成 员 兴 趣 网 络 这 一 特点 ,利用 资源 标签 表 
征用 户 兴趣 ,通过 网 络 度量 指标 动态 地 挖掘 社 群 成 员 
的 兴趣 中 心 , 即 具有 大 量 连接 并 主导 网 络 运行 的 节点 。 
2.2.1 兴趣 标签 网 络 生成 

(1) 资 源 -标签 隶 属 和 矩阵 。 根 据 社 群 活跃 用 户 的 
资源 标签 ,利用 R 语言 编写 算法 构建 "资源 - 标签 隶 
JS BRE" ,该 矩阵 将 所 有 资源 与 标签 包含 在 同一 矩阵 
中 ,有 利于 后 续 处 理 。 和 矩阵 中 行 表示 具体 某 资源 ,列表 
示 所 有 标签 ,而 和 矩阵 内 的 值 表示 该 资源 是 否 使 用 该 标 
签 。 构 建 算法 如 下 : 
Source_Targ < - read. csv(“ 资 源 标签 数据 . csv”,header = F) 
Targ < - read. esv( “隶属 矩阵 框架 . csv” ,header = F) 


rnum = nrow(Source, Targ) 
for (iin 1:mum) ; 
source = as. character( Source, Targ[ i,1]) 
# 获 取 资 源 在 隶属 矩阵 中 横 坐 标 
x = which(Targ[ ,1] = = source) 


lnum = ncol(Source_Targ[i,1]) 
for (j in 2:lnum) ; 
targ = as. character( Source. Targ[ i,j] ) 
# 获 取 资 源 对 应 标签 在 隶属 矩阵 中 的 纵 坐 
y = which(Targ[1,] = = targ) 
if (sum(y)! =0)| 


> 
z 


Tag[x,y] < - 1 
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| else | 


next( ) 


| 
i 


| 
write. csv( Targ, file =“ 资 源 - 标签 隶属 矩阵 . csv”, row. names = 
FALSE) 

(2 ) 标 签 共 现 矩 了 泗 。 利 用 “资源 -标签 隶属 矩阵 ” 
能 够 发 现 不 同 标签 同时 为 同一 资源 进行 标注 , 则 这 些 
标签 间 存 在 共 现 关系 ,通过 “资源 - 标签 隶属 矩阵 ”， 
将 其 转换 为 标签 共 现 和 矩阵 ,便于 后 续 重 要 标签 的 挖掘 。 
2.2.2 资源 标签 网 络 度量 指标 

社会 网 络 中 衡量 网 络 中 节点 重要 性 的 指标 有 很 
多 ,笔者 选取 较为 经 典 4 个 指标 进行 度量 ,分 别 为 : 

二 =(1) 度 数 中 心性 。 度 数 中 心性 C5 是 社会 网 络 分 


析 虽 刻画 节点 中 心性 最 直接 的 度量 指标 ,是 指标 签 网 


2.2 中 的 4 个 指标 从 社 群 成 员 兴 趣 标签 网 络 计算 出 较 
优 的 标签 。 这 种 方法 首先 要 确定 各 项 指标 的 最 优 方案 
( 即 正 理 想 值 ) 与 最 坏 方案 ( 即 负 理 想 值 ) ,然后 求 出 各 
个 方案 与 正 \ 负 理想 值 之 间 的 加 权 欧 式 距离 ,从 而 获得 
各 个 方案 与 最 优 方案 的 接近 程度 ,作为 评价 方案 的 优 
FRE TOPSIS 算法 步骤 为 : 

步 又 1: 构建 社 群 标签 网 络 的 决策 矩阵 X; 

步骤 2: 将 决策 矩阵 X 标准 化 ,构建 社 群 标签 网 络 
的 标准 化 决策 矩阵 Y; 

步骤 3: 根 据 标准 化 决策 矩阵 Y 确定 正 理想 值 Y 
+ 和 负 理 想 值 Y-; 

步骤 4: 计 算 各 方案 到 正 理 想 值 Y+ 的 距离 D + 和 
Sf IURE Y -的 距离 D - ,进而 计算 各 方 

案 的 综合 评价 指数 Gio 

最 后 根据 TOPSIS 综合 评价 指数 Gi 排序 选取 
TOP10 作为 社 群 成 员 兴 趣 预 标签 。 
2.3 社 群 标签 生成 

在 2.1 5 2.2 中 得 到 的 子 模型 预 标签 基础 上 进行 
整合 ,生成 社 群 标签 。 由 于 不 同 领 域 的 社 群 情况 不 同 ， 
笔者 认为 不 同 领域 的 社 群 话题 需要 根据 具体 情况 设置 
不 同 的 概率 国 值 来 进行 预 标签 提取 ,以 保证 预 标签 的 


加 (2 ) 中 介 中 心性 。 中 介 中 心性 Cro 是 指标 签 网 络 
展 问 过 某 个 标签 并 且 连 接 其 他 标签 的 最 短路 径 数量 与 
这 疯 个 标签 之 间 所 有 最 短路 径 数量 的 比例 ,用 以 测量 
棕 泽 控制 其 他 标签 的 信息 交流 能 力 。 某 标签 的 中 介 中 
心 峰 值 越 大 说 明 该 标签 在 标签 网 络 中 对 信息 的 协调 能 
力 越 强 ,表示 其 处 于 标签 网 络 中 的 枢纽 位 置 。 

- 〇 G3) 接近 中 心性 。 接 近 中 心性 Ceo 指 一 个 标签 与 
标签 网 络 中 其 他 标签 的 距离 之 和 ,能 够 体现 标签 网 络 
中 的 某 标签 与 其 他 标签 之 间 的 距离 长 短 , 探 索 网 络 中 
各 个 标签 之 间 关系 的 强 弱 。 其 不 仅 要 考虑 标签 节点 的 
值 ,还 要 考虑 标签 节点 在 网 络 中 所 处 的 位 置 ,更 能 反映 
标签 网 络 的 整体 结构 。 

(4) 特 征 向 量 中 心性 。 特 征 向 量 中 心性 Cro 更 加 
关注 标签 节点 间 的 相互 影响 即 群体 效应 ,标签 节点 可 
以 通过 与 其 它 重要 标签 节点 的 连接 间接 地 提高 网 络 的 
地 位 。 即 一 个 标签 节点 是 否 重要 ,不 仅 与 其 自身 有 关 ， 
还 与 其 连接 的 标签 节点 有 关 。 

2.2.3 ， 社 群 成 员 兴趣 预 标签 

为 了 将 不 同 评价 指标 进行 综合 ,本 研究 引入 多 指 
标 评价 体系 中 经 典 的 算法 TOPSIS, 该 算法 是 一 种 “ 通 
近 于 理想 值 ”的 排序 方法 ,适用 于 根据 多 项 指标 对 多 个 
方案 进行 比较 选择 的 分 析 方 法 ,在 本 研究 中 即 根据 2. 


显著 差异 性 。 同 时 ,剔除 社 群 成 员 兴 趣 标签 TOPI 中 
对 社 群 表征 无 意义 的 标签 ,最终 产生 成 员 兴 趣 预 标签 。 

由 于 社 群 话题 标签 主要 表征 变化 较 少 的 整体 兴 
趣 , 而 社 群 成 员 兴 趣 标签 表征 变化 较 大 的 用 户 近期 关 
注 点 ,为 了 使 社 群 标签 能 够 更 加 准确 地 表征 ,笔者 认为 
应 根据 不 同 领 域 设 定 两 类 标签 整合 的 分 配 比 例 ,由 于 
一 般 社 群 整体 特征 标签 变化 较 小 且 数 量 较 少 ,而 成 员 
兴趣 标签 变化 较 大 且 数 量 较 多 ,并 且 一 般 社 群 标签 数 
量 均 为 5 个 左右 ,因此 为 了 兼顾 两 类 标签 的 因素 ,将 比 
例 设 定 为 2:3 能 够 适合 大 多 数 领 域 社 群 。 奉 话题 预 标 
签 数 量 较 少 , 则 由 成 员 兴 趣 标签 进行 补充 ; 奉 话 题 预 标 
签 与 成 员 兴 趣 预 标签 存在 重生 情况 , 则 将 该 标签 设 定 
为 Topl 成 员 兴 趣 ,其 他 标签 选取 顺序 依次 顺延 。 据 
此 ,生成 最 终 社 群 标签 。 


3 ”实证 研究 


随 着 网 络 社交 平台 的 发 展 , 网 络 社 群 的 爆炸 式 增 
长 ,其 中 最 为 经 典 的 网 络 社 群 即 豆瓣 网 -小 组 ”, 豆 
淮 用 户 可 自由 创建 小 组 ,小 组 涉及 内 容 包 罗 万 象 ,如 电 
影 .读书 音乐. 手 工艺. 陶艺 文具 等 涉及 生活 的 方 方 
面 面 , 随 着 小 组 逐渐 增多 ,目前 几乎 圳 括 所 有 类 别 的 小 
组 ,但 由 于 是 自由 创建 ,相同 类 别 的 小 组 被 大 量 重复 创 
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建 ,使 得 同一 类 别 的 小 组 更 加 索 杂 。 同 时 ， 


“IR - | 包括 : 某 一 时 间 段 特定 小 组 所 有 帖子 标题 及 内 容 、 帖 子 


小 组 ” 既 提 供 了 小 组 发 帖 讨论 的 功能 ,又 基于 豆 匆 网 大 | 中 涉及 到 的 豆 办 用 户 昵 称 ` 涉 及 的 用 户 在 时 间 段 内 浏 


本 研究 以 “ 豆 办 网 -小 组 ”为 实证 研究 对 象 , 从 中 获取 | 间隔 即 2018 年 12 月 的 数据 ; 
数据 并 对 提出 的 模型 加 以 验证 。 
3.1 数据 收集 与 整理 


本 研究 采用 Python 编写 网 络 爬 虫 , 以 一 个 月 为 


M, 23 oT RC [8] 28 | S23 I. — 小 组 相同 时 间 段 及 不 同 | 年 12 H 2019 年 1 月 时 间 段 的 数据 。 


KALIR - 小 组 不 同时 间 段 的 数据 进行 对 比 验证 ， 
同时 为 了 便于 实证 结果 的 验 记 


组 类 型 能 够 被 其 名 称 明显 标识 的 小 组 数据 。 采 集 数 据 
A1 部 分 小 组 话题 数据 


LH 


量 的 资源 允许 用 户 进 行 资 源 的 浏览 与 标签 的 设 定 。 | 览 的 资源 名 称 及 资源 的 标签 。 具 体 数据 如 下 : 
“IRRI -小 组 ”作为 较为 流行 的 网 络 社 群 ,网 络 用 户 
较 多 ,数据 较为 丰富 ,但 又 存在 较为 明显 的 问题 ,因此 |” 据 , 同 时 为 了 验证 实证 结果 也 候 取 了 该 小 组 较 长 时 


(1)2018 年 1 月、2018 年 2 月 “ 佳 片 推荐 ”小 组 数 


间 
(2) 相 同类 型 的 小 组 "一 个 人 看 电影 "2018 年 1 
月 .2018 年 2 月 .2018 年 12 月 时 间 段 的 数据 ; 
可 (3) 不 同类 型 的 小 组 “买书 读书 一 起 来 吧 ”2018 


其 中 ,小 组 话题 部 分 数据 如 表 1 所 示 ,成 员 兴 趣 资 
FE ,本 文选 择 性 地 疏 取 小 | 源 及 标签 部 分 数据 如 表 2 所 示 : 


T- 
FA AL 话题 标题 话题 内 容 
CD000000 一 日 情人 L' amant d un jour https ;//www. douban. com/doubanapp/dispatch? uri = /review/9055612/&dt. dapp =1 
(O77 DEBA AI 一 个 女 的 , 带 着 小 孩 去 雪山 一 个 地 方 租 房子 住 。 她 老公 不 在 她 身边 ,什么 事情 只 能 给 她 老公 打 电 
O 话 。 房 东 帮 过 她 很 多 ,他们 慢 慢 喜欢 上 对 方 。 后 来 , 女 的 去 找 她 老公 , 走 了 。 几 年 后 , 女 主角 又 回 
[em] 到 这 个 地 方 找 他 。 男 主角 以 前 为 了 她 摔 断 了 腿 。 因 为 机 缘 巧 合 ,这 次 女 的 没有 能 见 到 男 主角 。 男 
erp 主角 知道 后 ,开车 不 顾 大 雪 封 山 , 下 山 去 找 她 ,终于 相遇 ,两 个 人 如 愿 以 偿 的 在 一 起 了 
e 123 有 看 过 万 能 钥匙 的 吗 TERIS ,本 人 胆 小 又 想 看 
C492697 看 过 发 条 橙 的 吗 来 探讨 一 下 人 性 呀 
QQN-— 看 过 最 多 遍 的 电影 JE RC Ro 
s ! 最 近 剧 荒 求 推荐 动作 ,悬疑 ,犯罪 ,都 可 以 ! 不 要 脑残 片 ,谢谢 
mm o 有 关 战 争 的 电影 拯救 大 兵 瑞 恩 ,血战 钢 锯 岭 ,狂怒 。 有 关 战 争 类 的 求 推荐 。 
之 Ace' 求 片 名 之 前 看 了 一 部 电影 , 讲 得 是 一 个 日 本 人 搬 到 了 一 座 美国 公寓 里 ,然后 门 房 是 一 个 美国 老 寡 妇 , 门 房 


chinaX 


ood 雪 之 族 
blood 雪 之 族 
blood 雪 之 族 


Bon Homme 
Bourne 


chuchu 


cocojamboo 


Justseven 


由 于 实证 数据 是 通过 疏 虫 自动 抓 取 , 数 据 类 型 多 
样 化 ,因此 存在 以 下 问题 :存在 不 同 外 文 资源 但 中 文 
名 称 相同 或 同名 资源 的 现象 ,整理 过 程 中 通过 在 资源 


大 家 认为 电影 时 间 怎 么 样 ? 多 


求 感人 电影 


谁 介绍 下 赛 博 朋克 , 反 乌 托 邦 题材 电影 ? 


有 没有 什么 好 的 儿童 电 


E 
AAT 


刚刚 看 完 《 分 裂 》, 谁 能 给 我 稍微 解 


析 一 下 吗 ? 
求 推荐 好 看 的 电影 或 剧 
豆瓣 影 人 里 面 的 照片 咱 
一 起 来 看 电影 啊 


说 一 个 让 你 震撼 的 电影 


无 问 西 东 。 


没 了 


有 点 没 看 懂 , 还 有 男 主角 最 后 是 分 裂 出 新 的 人 格 了 吗 ? 怎么 那么 厉害 ? 真 的 像 野兽 那样 仆 来 候 


去 ,也 太 超 现实 了 吧 。 最 后 他 不 杀 女 主 又 是 啥 意思 ? 这 部 电影 是 不 是 涉及 到 一 些 心理 学 知识 ? 
推荐 时 请 注 明 名 字 
你 们 还 能 看 吗 ? 


pe 


每 周三 分 享 一 部 电影 ,大 家 可 以 在 群 里 分 享 观 影 


求 一 部 感人 到 湛 的 电影 ,谢谢 谢谢 轧 CS 
就 是 像 ( 银 翼 杀 手 》 这 样 的 电影 … 


比如 《 伴 我 同行 ?这 样 的 


里 可 以 下 载 什么 类 型 最 近 剧 荒 了 笔 芯 iu 


二 


住 荐 喜欢 的 电影 电视 剧 , 讨 论 近 期 追 的 剧 和 电 


A 


名 称 后 加 注 年 份 进行 区 分 ;@ 存 在 社 群 成 员 参 与 了 7 最 | 个 资源 ,8 214 个 资源 标签 , 见 表 3 。 


近 的 话题 讨论 但 未 有 资源 的 现象 , 即 缺 少 该 成 员 的 资 


自己 先 开 个 头 吧 ,大 家 保持 队 形 《 漂 流 欲 室 》- 金 基 德 导演 的 , 女 主 把 鱼 钩 放 和 人 下 体 ,然后 搜 鱼 
线 。 被 惊 到 了 。。。 豆 办 链接 : https://movie. douban. com/subject/1305088/ 


的 朋友 是 一 个 小 孩 ,后 来 门 房 差 点 和 日 本 人 谈 恋爱 ,但 是 因为 一 些 误会 不 愉快 了 还 是 怎么 了 ,最 后 
寡妇 被 车 撞 死 了 ,这 是 喻 电影 
废话 不 多 说 ,上 图 原来 还 有 平淡 如 水 的 艳遇 ,这 部 电影 告诉 我 的 


感受 , 群 里 会 不 定期 发 福利 红包 ,也 可 以 互相 分 享 


源 标签 数据 ,针对 这 部 分 数据 在 整理 中 保存 话题 但 在 
资源 数据 中 进行 噜 除 。 经 过 对 数据 进行 补充 和 梳理 ， 
共有 2 113 篇 话题 讨论 ,涉及 1 578 名 成 员 ,共计 4 696 
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表 2 部 分 社 群 活跃 用 户 浏览 资源 标签 数据 


资源 标签 
画廊 外 的 天 赋 纪录 片 艺术 传记 电影 文艺 
一 日 情人 爱情 文艺 黑白 女性 夏 纳 
AF Ae UE 文艺 人 生 人 性 
偷 香 贝 托 鲁 奇 爱情 青春 情色 意大利 电影 Bemardo- 
Bertolucci 
水 牛 城 66 爱情 独立 电影 黑色 幽默 黑色 独立 


蓝 白 红 三 部 曲 之 白 文艺 爱情 波兰 经 典 人 性 
另 一 个 波 琳 家 的 女孩 ”历史 宫廷 传记 爱情 女性 
Der 战争 信仰 真实 事件 改编 二 战 人 性 历史 TES 


Jn 
1H 


巴黎 淘气 帮 喜剧 儿童 童年 成 长 温情 搞笑 家 庭 

Maite 唐 朝 奇幻 古装 魔幻 悬疑 猫 

"MG KEE 日 本 电影 MHIE BERNER EUG 

[8 喜剧 烂 片 搞笑 香港 开心 麻花 国 ] 

Mp aca 达 斯 汀 . ÆRE DustinHoffman 推销 员 之 死 美国 
> 电影 施 隆 多 夫 

AHE IRK 爱情 人 生 传记 温情 

BIBUIJUTOKEGES AUF 动画 童年 剧场 版 温情 日 本 动漫 经 由 


表 3 实证 数据 统计 


< 

(af) $ 

CN 佳 片 推荐 
e 

CN 


社 群 名 称 时 间 话题 数 ” 用 户 数 ” 资 源 数 ” 标 签 数 
2018 年 01 H 323 264 759 1 204 
2018 年 02 H 238 210 846 1 298 
m 20184E 12 H 427 320 870 1214 
> 个 人 看 电影 2018 年 01 月 268 209 657 1 168 
BENE 
» 2018 年 02 H 160 136 380 594 
a 20184E12 H 389 313 874 1 340 
pum 读书 一 起 来 吧  20184E12 H 159 66 140 729 
H EE 
e 2019 年 01 H 149 60 170 667 
© 总 计 2113 1578 4696 8214 


同时 ,经 过 对 话题 发 布 时 间 进 行 统计 ,发 现 话题 发 
布 时 间 主 要 集中 于 数据 收集 前 5 天 ,其 他 时 间 的 话题 
主要 是 以 前 的 话题 有 了 新 的 回复 ,可 以 得 出 社 群 活跃 
度 较 高 ,每 天 都 有 成 员 进行 话题 讨论 , 社 群 内 容 更 新 较 
为 快速 ,具有 较 好 的 研究 价值 。 
3.2. 社 群 话题 标签 生成 

对 话题 数据 进行 预 处 理 操 作 , 分 别 对 话题 数据 进 
行 去 除 特殊 字符 ,中文 分 词 去 停 用 词 .语义 映射 后 ,得 
到 社 群 话题 预 处 理 结 果 。 在 此 基础 上 ,将 话题 数据 作 
为 社 群 文档 集合 W ,并 将 每 个 时 间 段 的 社 群 话题 数据 
作为 一 个 子 文档 集 ,将 其 分 为 8 个 子 文档 集合 (“ 佳 片 
推荐 "2018 年 1 月 话题 数据 为 wl ,2018 年 2 月 话题 数 
据 为 w2 ,2018 年 12 月 话题 数据 为 w3;“ 一 个 人 看 电 
5572018 年 1 月 话题 数据 为 w4 ,2018 年 2 月 话题 数据 


为 w,2018 年 12 月 话题 数据 为 w6; “KP 读书 一 起 
来 吧 ”2018 年 12 月 话题 数据 为 w7 ,2019 年 1 月 话题 数 
据 为 w8) ,文档 集中 的 每 一 个 文档 Di 都 是 一 个 话题 。 
对 文档 集 进行 预 处 理 ,将 分 词 进行 编码 ,并 将 每 篇 文档 
的 分 词 结果 用 编码 进行 表示 ,如 表 4 所 示 : 

表 4 话题 分 词 部 分 编码 表示 


文档 预 处 理 结果 分 词 编码 表示 

DI 情人 0 

D2 “电影 名 字 小 孩 雪山 租房 子 老公 老公 房 1234566789610 
东 喜欢 对 方 老公 女 主 角 男 主角 摔 断 了 11 12 13 11 11 14 15 
腿 机 缘 巧 合 男 主角 男 主角 开车 不 顾 大 16 17 18 19 20 
雪 封 山 下 山 相遇 如 愿 以 偿 

D3 万 能 钥匙 恐怖 胆 小 21 22 23 

D4 探讨 A 24 25 

D5 电影 电影 11 


行 BTM 模型 训练 ,构建 出 社 群 话题 主题 模型 。 根 据 公 
式 (1) 计 算 文档 集 WI 不 同 主题 数 K 的 困惑 度 得 到 困 
惑 度 曲线 ,可 以 看 出 不 同 主题 模型 的 K 值 越 大 ,困惑 度 
越 低 ,如 表 5 所 示 , 但 困惑 度 只 在 0.001 级 别 内 进行 波 
动 ,并 无 较为 显著 的 差异 ,因此 设置 主题 数 K =1 ,根据 
BTM 模型 在 经 过 1 000 的 迭代 之 后 得 到 每 一 子 文档 集 
下 的 主题 -语词 概率 分 布 ,如 表 6 所 示 。 
表 5 主题 困惑 度 值 


主题 数 - LXX POR). EPSogPQW; | Zg) IAN 主题 困惑 度 
1 0.018 396 830 1.018 567 094 
2 0.017 716 041 1.017 873 901 
3 0.017 102 683 1.017 249 771 
4 0.016 967 775 1.017 112 545 
5 0.016 421 836 1.016 557 415 


d 6 展示 了 “ 佳 片 推荐 ”3 个 时 间 段 (wl 23) “一 
个 人 看 电影 "3 个 时 间 段 (w4 -6) 及 “买书 读书 一 起 
来 吧 ”2 个 时 间 段 (w -8) 子 文档 集 的 “主题 - 语词 ” 
概率 分 布 ,其 中 每 一 行 表示 一 个 子 文档 集 的 主题 - T8 
词 及 其 概率 ,如 第 1 行文 档 集 wl 中 ,该 主题 下 共有 10 
个 语词 ,其 中 “电影 "这 一 语词 表征 该 文档 集 的 主题 概 
率 为 0.043 723。 通 过 对 各 子 文档 集 的 主题 - 语词 概 
率 进 行 比较 ,发 现 “ 佳 片 推荐 " 社 群 中 “电影 “推荐 ”等 
语词 的 概率 与 其 他 语词 相 比 具有 较为 明显 的 差别 ,而 
文档 集 w7 “书籍”“ 买 书 ” 语 词 概率 也 具有 显著 区 别 ， 
且 在 同一 社 群 不 同 的 子 文档 集中 概率 都 比较 高 ,较为 
稳定 ,表征 了 社 群 的 主要 兴趣 。 
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A6 子 文档 集 主题 -语词 概率 分 布 


xe W, 语词 电影 推荐 WUK 文工团 霸王 感动 世界 喜欢 一 辈子 政治 家 
概率 0.043 723 0.013092 0.012152 0.009 982 0.008535 0.007667 0.006763 0.006437 0.006267 0.006 004 

文档 集 W， 语词 电影 评分 男 主 人 数 女 主 父亲 妻子 水 形 物语 蒂 姆 JLF 
概率 0.018 638 0.011022 0.010291 0.010237 0.008989 0.008989 0.007491 0.006 242 0.005993 0.005 493 

xi v, 语词 电影 推荐 喜欢 名 字 妻子 工作 美好 情节 资源 家 庭 
概率 0.107958 0.043027 0.013 422 0.012435 0.010856 0.010264 0.007855 0.008488 0.008093 0.007 698 

验证 数据 文档 集 ”语词 孩子 工作 电影 父母 水 形 物 语 方式 老师 方法 EE 老板 
Wa 概率 0.019 891 0.006816 0.006445 0.006057 0.005922 0.005686 0.004724 0.004724 0.004707 0.004 252 
文档 集 W。 语词 电影 生活 王 彩 玲 热爱 柏 舟 感动 影片 进 群 喜欢 分 享 
概率 0.023 764 0.012067 0.011156 0.008 766 0.006517 0.005578 0.005464 0.005 408 0.005208 0.004 668 

文档 集 W。 语词 电影 36 f 喜欢 老师 ffe E 视频 分 手 学 习 济公 故事 
概率 0.025442 0.021329 0.008 265 0.008226 0.005308 0.004936 0.004642 0.004524 0.004407 0.004 309 

文档 集 语词 书籍 买书 书店 阅读 优惠 券 京东 宇宙 封面 外 星 印刷 
概率 “0.083 162 0.030079 0.012621 0.012007 0.011461 0.010916 0.010234 0.009551 0.009347 0.009 142 

Aus m 语词 买书 书籍 京东 活动 自 营 优惠 券 参加 世界 A 中 国 
概率 0.036 611 0.031 007 0.025381 0.023510 0.020566 0.019501 0.018 948 0.013345 0.010556 0.010 247 


co 
^ NN M  LCLO LCLOLUULLULULLULUUAAAAAYA A A- uLVECQCO CO CI. CCCC€cCOC 


b 社 群 成 员 兴趣 标签 生成 

3CD»U 用 户 兴趣 标签 网 络 构建 

< 在 对 他 取 的 不 同 资源 出 现 的 频率 及 标签 词 频 进行 
狂 现 与 统计 的 基础 上 ,利用 算法 1 构建 "资源 -标签 录 
pe" UY PB UR 7 所 示 。 资 源 - 标签 隶属 
得 展现 了 用 户 标注 某 一 资源 的 常用 标签 ,矩阵 中 行 
JEFF s, PES RP Jpn RI GEARS 
签 是 该 行 资源 的 用 户 常用 标签 ,数值 0 则 表示 用 户 并 
杀生 用 该 标 竺 标注 对 应 资源 。 通 过 构建 "资源 - 标签 


隶属 矩阵 ”将 资源 与 其 标签 数据 进行 整合 ,作为 下 一 步 
构建 “标签 共 现 矩阵 ” 即 标签 网 络 的 基础 。 
3.3.2. 兴趣 标签 网 络 

基于 表 7 ,根据 同一 资源 中 标签 间 的 共 现 关系 , 利 
用 Matlab 编写 程序 生成 资源 标签 的 共 现 矩阵 ,以 “ 佳 
片 推 荐 "1 月 数据 共 1 204 个 标签 为 例 ,部 分 结果 如 表 
8 所 示 。 表 中 行列 均 是 资源 标签 ,数值 1 表示 行列 标 
签 存 在 共 现 关系 ,数值 0 则 表示 不 存在 ,而 标签 共 现 矩 
阵 则 为 兴趣 标签 网 络 。 


四 表 7 资源 - 标签 隶属 矩阵 
ERA z m FERE ET. ELA 
WE nu o gy 文艺 MERS Jit POO OMMO GELS WEER 达 斯 汀 ERE = Dudes 
画廊 外 的 天 赋 1 0 1 0 0 0 0 0 0 0 
一 日 情人 0 1 1 0 0 0 0 0 0 0 
年 轻 气 成 0 0 1 0 0 0 0 0 0 0 
偷 香 0 1 0 1 0 0 0 0 0 0 
水 牛 城 66 0 1 0 0 0 0 0 0 0 0 
表 8 标签 共 现 矩阵 
标签 纪录 , 3r fü * 十 五 HeT . ELA 
资源 纪录 片 爱情 文艺 NAET mu f 喜剧 唐 朝 REEE AT ERS Jude-Law 
资源 
纪录 片 0 0 1 0 1 0 1 0 0 0 0 
爱情 0 0 1 1 1 1 1 0 0 0 1 
文艺 1 1 0 0 1 1 1 0 0 0 1 
贝 托 鲁 奇 0 1 0 0 0 0 0 0 0 0 0 
1 1 1 0 0 1 0 0 0 0 0 


历史 


3.3.3 ”标签 网 络 重要 节点 指标 计算 

按照 模型 提出 的 4 种 兴趣 标签 网 络 重要 节点 度量 
指标 :度数 中 心性 .中介 中 心性 ,接近 中 心性 特征 向 量 
中 心性 。 根 据 其 各 自 的 计算 方法 进行 计算 ,利用 UCI 


NET 计算 兴趣 标签 网 络 各 个 标签 节点 的 度量 指标 ,为 


后 续 综 合 评价 奠定 基础 。 以 " 佳 片 推荐 ” 社 群 2018 年 
1 月 为 例 ,部 分 数据 如 表 9 所 示 : 
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RI 社 群 兴趣 标签 网 络 节点 度量 指标 部 分 数据 
度数 中 介 接近 


特征 向 量 


中 心性 中 心性 中 心性 中 心性 
1 AE 145 45 880 7 199 0. 096 
2 爱情 348 116 942.4 6 886 0.23 
3 文艺 157 26 555.73 7 080 0.159 
4 贝 托 鲁 奇 5 0 7 966 0.01 
5 


11 818.42 7 348 0.073 


3.3.4 TOPSIS 兴趣 标签 网 络 综合 评价 

基于 TOPSIS 的 多 指标 决策 网 络 节 点 的 重要 性 综 
合 评价 方法 将 标签 网 络 中 的 每 个 标签 节点 看 作 一 个 方 
案 ,将 多 种 评价 指标 看 作 各 标签 节点 方案 的 属性 , 借 此 
将 标签 节点 重要 性 问题 转换 为 多 属性 方案 决策 问题 。 
本 节 利用 TOPSIS 综合 评价 方法 探究 兴趣 标签 网 络 中 
的 重要 标签 节点 。 
之 (1) 标 准 化 决策 矩阵 构建 。 根 据 3.3.3 中 计算 出 
的 多 种 兴 趣 标签 网 络 重要 度 指 标 ,构建 决策 矩阵 X。 
其 力行 表示 每 个 标签 节点 , 列 为 每 个 节点 的 4 种 重要 
度 绰 标 ,以 “ 佳 片 推荐 " 社 群 2018 年 1 H AH, RRE 
陈 半 内 容 与 表 9 内 容 相同 。 
中 同时 由 于 不 同 指标 的 量 级 不 同 ,为 了 方便 比较 因 
战 硕 要 对 决策 矩阵 进行 归 一 化 处 理 ,得 到 标准 化 决策 


ARIA Y , Ade 10 所 示 : 
CN mE " 
MO R10 标准 化 决策 矩阵 立 部 分 结果 
度数 中 心性 。 中 介 中 心性 接近 中 心性 FMA 
中 心性 
0. 416 666 667 0.392 329 833 0.004 982 686 0.417 391 304 
1 1 0.004 766 048 1 


0.451 149 425 0.227 083 745 0.004 900 322 0.691 304 348 
0.014 367 816 0 0.005 513 554 0.043 478 261 
0.201 149 425 0.101 061 847 0.005 085 814 0.317 391 304 


(2) 正 负 理想 值 确定 。 根 据 标 准 化 决策 矩阵 立 确 
定 正 理想 值 Y+ 和 负 理想 值 Y - 。 鉴 于 研究 中 基于 网 
络 结构 的 各 中 心性 指标 来 考察 社 群 标签 节点 的 重要 
性 ,各 指标 之 间 并 无 权重 高 低 之 分 ,因此 研究 中 并 未 对 
各 属性 设 定 权 重 向 量 ,以 “ 佳 片 推 荐 ”" 社 群 2018 年 1 月 
为 例 , 正 、 负 理想 值 如 下 所 示 : 

Y'-[1,1,1, 1] 

Y^ = 10.008 620 689 655 172 41, 0, 

0.004 766 047 689 546 6, 0| 

(2) 标 签 节 点 正 负 理想 值 距离 计算 。 计 算 各 标签 
节点 到 正 理 想 值 Y+ 的 距离 D+ 和 到 负 理 想 值 Y -的 
距离 D - ,部 分 结果 如 表 11 所 示 : 

表 11 标签 节点 的 正 负 理想 值 距离 部 分 结果 


标签 sil Bt 
纪录 片 1.727 087 993 0.995 233 952 
爱情 1.992 578 894 0.001 484 631 
X 1. 727 087 993 0.995 233 952 
DERE 1.979 901 443 0.026 102 999 
历史 1. 982 051 044 0.021 757 772 


(4) 各 标签 节点 贴近 度 计 算 。 根 据 标签 节点 的 正 
负 理想 值 ,计算 各 标签 节点 与 理想 方案 的 贴近 度 G, 并 
根据 贴近 度 G 降序 排序 ,以 “ 佳 片 推荐 ” 社 群 2018 4E 1 
月 为 例 , 部 分 结果 如 表 12 所 示 , 整 体 过 程 数据 如 图 2 
所 示 。 


表 12 “ 佳 片 推 荐 ”2018 年 1 月 标签 节点 贴近 度 G(TOP10) 


标签 名 爱情 喜剧 人 性 经 典 AE 美国 电影 犯罪 文艺 香港 
贴近 度 G 0.634417 0.601772 0.450864 0.437728 0.425342 0.407363 0.391071 0.376 793 0.370 632 


同时 ,对 3 个 社 群 其 他 日 期 的 成 员 兴 趣 标 签 数据 
进行 处 理 ， 佳 片 推 荐 "标签 部 分 结果 如 表 13 所 示 ， 
“一 个 人 看 电影 "如 表 14 所 示 , “买书 读书 一 起 来 吧 ” 
见 表 15。 
3.4 社 群 标签 生成 

将 3.2 节 生 成 的 社 群 话题 标签 与 3. 3 节 生 成 的 社 
群 活跃 成 员 兴 趣 动 态 标 签 进行 整合 ,生成 社 群 动态 标 
签 


Ao 


通过 对 3.2 节 生 成 的 社 群 话 题 标签 进行 分 析 , 笔 
者 认为 在 电影 领域 社 群 话题 中 概率 大 于 0.01 的 语词 


与 其 他 语词 相 比 具有 显著 性 差异 , 且 较 为 稳定 。 因 此 
本 研究 选取 生成 社 群 话题 标签 概率 大 于 0.01 标签 作 
为 话题 预选 标签 ,如 “ 佳 片 推荐 ” 社 群 2018 年 1 月 25 
日 话题 预选 标签 为 "电影 ”推荐 “ 蝶 衣 ”; 而 书籍 领域 
社 群 话题 语词 概率 大 于 0. 03 则 具有 一 定 显著 性 。 同 
时 ,对 于 生成 的 社 群 活跃 成 员 兴 趣 标签 ,根据 社 群 成 员 
兴趣 标签 的 贴近 度 G 值 排序 ( 见 表 12、13 .14 .15 ) ,由 
于 国 别 年份. 资源 类 型 (如 中 国 、 剧 情 、 电 视 剧 .2017 
4E.) 等 标签 对 社 群 表征 意义 不 大 ,因此 对 TOP10 标签 
予以 剔除 后 作为 成 员 兴 趣 预 选 标签 。 
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标签 节点 的 正 负 理想 值 距离 标签 节点 贴近 度 
= * r Y- 
标准 化 决策 矩阵 Y+={1,1,1,1} ={0.00862068965517241,0.00476604 G 
76895466,0.0) 
序号 mx DH^ D+ (DJ D- 


2.039033157 1427947183 0.329996555 
0.995233952 2. 2: 0.634417247. 


0.014367816 


1.993152865| — 1408599611 0.72531 3 0.376793486 


0.201149425 


0.890804598. 


0 
0101061847 
5 


s 3.87540793 0.001923947 0.043862825 0.021795535 
引 历史 2.902060911|  1.703543633| 0.148018153 0.384731274 0.184234017 
| eie | 2559505506| 1.599845463| — 0286919389 0 8569| 0.250831218 


0.601771569 


0.017241379 


p eg 
0 


DE 0014367816| 0005649213| 0l 


3 iN [| — 0| — 0013043478] 
14. 1 0.106321839| 0.005130803| 0.016850103| 0260869565| 


0.005112116 


j 001149425 


0.050522851 


(X 


0.005186174 
0.004887171 
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图 2 TOPSIS 兴趣 标签 网 络 综合 评价 “ 佳 片 推荐 ”2018 年 1 月 整体 过 程 数 据 


表 13 “ 佳 片 推荐 "不 同时 间 段 兴趣 标签 R15 “买书 读书 一 起 来 吧 ” 不 同时 间 段 兴 
网 络 标签 节点 贴近 度 G 标签 网 络 标签 节点 贴近 度 G 

gA 贴近 度 6 | 2018 年 12 月 贴近 度 G ”2018 年 12 月 。 贴近 度 G | 2019 年 1 月 。 贴近 度 G 
Ozi 0.769 116 102 青春 0. 635 646 042 历史 0.031 文学 0.032 
CO 0.649 910 975 爱情 0.593 271 224 文学 0.019 小 说 0.027 
ee 0.461 290 09 喜剧 0.423 270 475 中 国 0.018 外 国文 学 0. 026 
QuE 0.437 751 639 人 性 0.421 112 733 o BÉ ia a 
S? 0.381 158 667 经 典 0. 409 195 616 d mo Pan doi 
m 电影 0.369 108 66 搞笑 0.373 283 624 近代 更 isi 国学 Hen 
Can 0.368 838 235 文艺 0.373 054 995 m iii 写作 

青春 0.362 222 011 荣光 荣 0. 364 353 958 文化 0.009 古典 文学 0. 009 
Iu 电影 0.359 661 594 李 维 0. 364 353 958 英国 0. 009 日 本 0. 009 
Ow 0.355 731 52 土耳其 0.364 338 716 


网 络 标签 节点 贴近 度 G 


“一 个 人 看 电影 "不 同时 间 段 兴趣 标签 


因此 ,根据 两 类 标签 整合 的 分 配 比例 ,由 于 “ 豆 办 
网 -小 组 ”标签 规定 为 5 个 , 则 本 研究 中 社 群 话题 标签 
选取 2 个 , 社 群 成 员 兴 趣 标签 选取 3 个 ,根据 表 6 与 表 


WERE G 2018 年 12 月 WREE G 12 以 及 上 述 的 分 析 阐 述 ,豆瓣 电影 兴趣 小 组 “ 佳 片 推 


表 14 
2018 年 1 月 贴近 度 G 2018 年 2 月 
爱情 0.503 82 剧情 
美国 0.446 56 美国 
喜剧 0.320 61 爱情 
人 性 0.31298 | 2017 年 
文艺 0.301 53 人 性 
经 典 0.274 81 动画 
剧情 0.225 19 文艺 
动作 0.221 37 悬疑 
英国 0.206 11 喜剧 
20174 0.206 11 


0.368 35 
0.337 77 
0.335 11 
0.25 
0.248 67 
0.227 39 
0.219 41 
0.214 1 
0.188 83 


0.449 83 4E” (2018 年 1 月 ) 的 社 群 话题 标签 概率 超过 0.01 的 
03855. | 前 两 个 为 “电影 "“ 推 荐 ”; 社 群 活路 成员 兴趣 标签 贴近 
HE G 值 最 高 前 3 个 为 “爱情 "喜剧 “人 性 ,因此 豆 准 


.332 78 
.321 07 


0 

0 

ici 电影 兴趣 小 组 “ 佳 片 推荐 ”在 该 时 间 段 的 动态 标签 生 
0.260 87 成 结果 如 图 3 Bron: 

0.257 53 

0 

0 

0 


E 成 标签 电影 ”推荐 RE 喜剧。 人 性 


.209 03 


.202 34 图 3 “ 佳 片 推荐 ”小 组 标签 生成 结果 
:200:67 小 组 标签 、 电影 ”电视 导演 ” 编剧 ”演员 
图 4 “ 佳 片 推荐 ”小 组 原 标签 
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对 比分 析 图 3 的 模型 生成 的 小 组 标签 结果 与 图 4 
所 示 的 该 小 组 原 标签 ,发现 动 态 生成 的 标签 既 能 够 较 
为 准确 地 反映 出 社 群 的 特征 ,同时 对 社 群 短期 的 兴趣 
也 有 较 好 地 揭示 ,将 会 方便 用 户 的 社 群 选择 。 

4 ”实证 研究 结果 分 析 


本 研究 共 抓 取 “ 佳 片 推荐 ”3 个 时 间 段 , “一 个 人 看 


影 "3 个 时 间 段 ,“ 买 书 读书 一 起 来 吧 ”2 个 时 间 段 ， 
同一 社 群 不 同时 间 点 、 同 类 型 社 群 相 同时 间 点 及 不 同 
类 型 社 群 的 豆 办 兴趣 小 组 话题 及 活跃 成 员 兴 趣 标签 数 
据 。 本 节 通 过 对 这 3 种 情况 进行 比较 分 析 , 并 对 模型 
效果 进行 验证 。 各 社 群 动态 标签 生成 结果 如 表 16 
所 示 : 


R16 社 群 标签 动态 生成 结果 


社 群 名 称 原 标签 标签 时 间 段 社 群 动态 标签 
佳 片 推荐 电影 电视 导演 编剧 演员 2018.01 电影 推荐 爱情 喜剧 AT 
2018.02 电影 评分 爱情 喜剧 AH 
2018. 12 电影 推荐 青春 爱情 喜剧 
一 个 人 看 电影 电影 一 个 人 生活 单身 2018.01 孩子 爱情 喜剧 人 X 
2018. 02 电影 生活 爱情 人 动画 
T 2018. 12 电影 36: 喜剧 爱情 青春 
LL 读书 一 起 来 吧 买书 读书 聊天 书 友 BM 2018. 12 书籍 买书 历史 文学 小 说 
€Q — 000 寞 xv b mh 
c 


加 实证 研究 的 前 提 是 用 户 对 3 个 社 群 情况 一 无 所 
答 自 其 社 群 名 称 不 能 标识 其 社 群 类 型 。 在 此 情况 下 ， 
JEK 16 可 以 发 现 ,本 研究 生成 的 社 群 动态 标签 能 
地 控 气 其 社 群 特征 。 并 且 , 不 同类 型 社 群 间 主 要 
对 得 并 不 相同 ， 佳 片 推荐 "与 一 个 人 看 电影 "主要 关 


RSB KE”. 
SZER, “HEEE” 5“ P AGERE" EERE 
主要 特征 方面 仍 有 很 大 不 同 ,“ 佳 片 推荐 " 主要 是 对 电 
影 号 行 推 荐 “评分 ” ,而 “一 个 人 看 电影 " 则 更 具 生活 
气 具 ,生成 标签 主要 为 生活 元 素 如 “爱情 "生活 "“ 瑜 
f". 由 此 可 以 认为 ,模型 在 表征 社 群 类 型 的 基础 上 ， 
能 够 更 加 细致 地 挖掘 其 主要 特征 。 

此 外 ,从 其 后 的 动态 标签 可 以 发 现 ,“ 佳 片 推 荐 ” 
长 期 的 兴趣 点 为 “爱情 "和 “喜剧 ”电影 ,但 依然 存在 变 
化 兴趣 点 。 如 2018 年 1 月 2 月 除 “爱情 “喜剧 "外 较 
多 关注 “人 性 "方面 的 电影 ,2018 年 12 月 则 更 多 关注 
“青春 ”主题 的 电影 。 这 是 由 于 不 同 主题 的 电影 热 映 ， 
激 起 社 群 成 员 的 短暂 兴趣 , 故 随 之 改变 。 

而 对 于 “一 个 人 看 电影 "长 期 兴趣 为 “爱情 ” ,分 析 
其 社 群 名 称 可 以 猜测 单身 的 社 群 成 员 依然 对 爱情 有 着 
非常 强烈 的 向 往 。 同 时 通过 对 2018 年 1 月 前 后 上 映 
电影 进行 查询 ,《 水 形 物语 光 三 块 广告 牌 光 无 问 西 东 》 
等 国内 外 经 典 影片 都 在 1 月 份 前 后 上 映 ,这 些 电 影 都 
与 “人 性 "有 关 , 因 此 两 个 社 群 都 在 2018 年 1 月 .2 月 
逐渐 开始 讨论 人 性 方面 的 电影 问题 。 而 2018 年 12 月 


在 中 国 上 映 的 《 狗 十 三 》 激 起 社会 对 青少年 成 长 .青春 
主题 的 关注 ,引起 全 社会 的 热烈 讨论 ,因此 两 个 电影 社 
群 都 在 12 月 份 生成 “青春 ”标签 。 

因此 ,根据 对 同类 型 不 同 社 群 同一 时 间 点 所 生成 
的 动态 标签 进行 对 比 , 可 以 看 出 模型 生成 的 两 个 社 群 
的 关注 点 和 兴趣 点 是 有 所 不 同 的 。 而 针对 不 同类 型 的 
社 群 模型 也 能 准确 地 识别 ,“ 买 书 读书 一 起 来 吧 ” 模 
型 识别 其 主要 特征 为 “书籍 “买书 ”, 并 在 生成 的 动态 
标签 中 将 其 社 群 成 员 对 书籍 的 兴趣 点 进行 表征 。 可 以 
认为 ,模型 能 够 对 任意 新 增 社 群 从 其 现 有 数据 中 挖掘 
其 社 群 类 型 和 动态 社 群 兴趣 ,简化 网 络 社交 平台 的 管 
理 和 网 络 用 户 的 使 用 。 


5 _ 结语 


综 上 所 述 ,本 研究 所 提出 的 模型 将 社 群 话题 表征 
的 社 群 长 期 特征 与 社 群 活路 成 员 兴 趣 标签 表征 的 社 群 
短期 兴趣 进行 结合 ,能够 较 好 地 揭示 社 群 关注 的 特点 。 
对 社 群 标签 的 动态 生成 能 够 提高 网 络 社 群 定义 的 及 时 
性 与 准确 性 ,方便 用 户 清楚 地 了 解 不 同 社 群 特点 , 解 
决 用 户 获 取信 息 .选择 社 群 困难 等 问题 。 但 是 ,由 于 
豆 因 用 户 多 是 使 用 概括 性 或 反映 整体 感受 .评价 的 
标签 '” ,因此 在 表征 社 群 成 员 兴趣 时 有 些 标签 的 区 
分 度 不 高 ,但 依然 能 够 依据 现实 情况 及 时 地 对 社 群 
员 兴 趣 予 以 表征 。 后 续 在 数据 更 为 合理 的 情况 
下 ,模型 能 够 更 准确 及 时 地 为 社 群 生成 表征 其 特点 
兴趣 的 标签 。 
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Research on the Generation of Community Tags in Network Social Platform 
Jiang Wuxuan Yi Ming Xiong Huixiang Tong Zhaoli 
School of Information Management, Central China Normal University, Wuhan 430079 


Abstract: | Purpose/significance | Community tags generated based on the mining of community topics and us- 


€r$' interests in network social platforms can improve the timeliness and accuracy of the definition of community, and 


solve the difficulties of user information acquisition and network community selection. | Method/process | Through 


in-depth analysis of the network community, it was determined that the community features can be represented ac- 


cording to the community topics and users" interests. Firstly, the BTM model of topic extraction was used to train the 


topic model of network social topics, and the pre-label of network social topics was obtained. Then, based on the dif- 


ferent important node indexes of community members’ interest tag network, the TOPSIS multi-index comprehensive 


evaluation method was used to mine the overall interest of members, so as to obtain the interest pre-label of members 


of the network community. After combining the two results, the community tag was generated and optimized. And 


this paper took “ Douban Group" as an example for demonstration. | Result/conclusion | The community tag genera- 


tion model based on community topics and members" interests can accurately mine the main interests and recent con- 


cerns. Tag generation of the community as a whole is conducive to the selection of interest groups of network users. 


Keywords: community labels tag generation 
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